DeskCraft: Evaluación de agentes de escritorio en flujos de trabajo profesionales
DeskCraft: benchmark para agentes de escritorio en flujos creativos con colaboración humano-agente. Evalúa GPT-5.4 y descubre sus limitaciones en tareas largas
DeskCraft: benchmark para agentes de escritorio en flujos creativos con colaboración humano-agente. Evalúa GPT-5.4 y descubre sus limitaciones en tareas largas